회귀 분석(Regression Analysis)은 통계학에서 두 개 이상의 변수 간의 관계를 모델링하고 분석하는 대표적인 기법 중 하나입니다. 특히 한 변수(종속 변수)가 다른 변수들(독립 변수 또는 설명 변수)에 의해 어떻게 영향을 받는지를 수학적으로 표현함으로써 예측 및 추론을 가능하게 합니다. 회귀 분석은 경제학, 사회과학, 의학, 공학, 머신러닝 등 다양한 분야에서 널리 활용되며, 데이터 기반 의사결정의 핵심 도구로 자리 잡고 있습니다.
이 문서에서는 회귀 분석의 기본 개념, 주요 종류, 가정 조건, 활용 사례, 그리고 해석 방법에 대해 체계적으로 설명합니다.
개요
회귀 분석의 목적은 종속 변수 $ Y $와 하나 이상의 독립 변수 $ X_1, X_2, \dots, X_p $ 사이의 관계를 함수 형태로 모델링하는 것입니다. 일반적으로 이 관계는 다음과 같은 형태로 표현됩니다:
$$
Y = f(X_1, X_2, \dots, X_p) + \varepsilon
$$
여기서 $ \varepsilon $는 오차항(error term)으로, 모델이 설명하지 못하는 잡음 또는 무작위 변동을 나타냅니다.
가장 흔한 형태는 선형 회귀(Linear Regression)로, 변수 간의 관계가 직선적이라고 가정합니다. 그러나 현실의 복잡한 관계를 설명하기 위해 비선형 회귀, 로지스틱 회귀 등 다양한 변형이 존재합니다.
주요 종류의 회귀 분석
1. 단순 선형 회귀 (Simple Linear Regression)
한 개의 독립 변수와 한 개의 종속 변수 사이의 선형 관계를 모델링합니다. 모델 형태는 다음과 같습니다:
$$
Y = \beta_0 + \beta_1 X + \varepsilon
$$
- $ \beta_0 $: 절편 (intercept)
- $ \beta_1 $: 기울기 (slope), X가 1단위 증가할 때 Y의 변화량
- $ \varepsilon $: 오차항
예: 학생의 공부 시간(X)과 시험 점수(Y) 간의 관계 분석
2. 다중 선형 회귀 (Multiple Linear Regression)
두 개 이상의 독립 변수를 사용하여 종속 변수를 설명합니다.
$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \varepsilon
$$
예: 집값(Y)을 설명하기 위해 방의 수, 위치, 연식 등의 변수를 동시에 고려
3. 로지스틱 회귀 (Logistic Regression)
종속 변수가 범주형(특히 이진 변수, 예: 0 또는 1)일 때 사용됩니다. 출력은 확률 값으로, 시그모이드 함수(Sigmoid function)를 통해 0과 1 사이로 제한됩니다.
$$
P(Y=1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p)}}
$$
예: 환자의 건강 상태를 기반으로 질병 발생 여부 예측
4. 다항 로지스틱 회귀 (Multinomial Logistic Regression)
종속 변수가 세 개 이상의 범주를 가질 때 사용 (예: 자동차 브랜드 선택: A, B, C)
5. 비선형 회귀 (Nonlinear Regression)
변수 간의 관계가 비선형인 경우 사용. 지수함수, 로그함수 등 다양한 함수 형태 가능.
예: 박테리아 성장 모델: $ Y = ae^{bt} $
회귀 분석의 가정 조건
선형 회귀 분석은 다음과 같은 고전적 가정(Classical Assumptions)을 따릅니다. 이 가정들이 만족되지 않으면 추정 결과가 편향되거나 신뢰할 수 없게 됩니다.
- 선형성 (Linearity): 독립 변수와 종속 변수 간의 관계는 선형입니다.
- 오차항의 정규성 (Normality of Errors): 오차항은 정규분포를 따릅니다.
- 등분산성 (Homoscedasticity): 오차의 분산이 모든 독립 변수 값에서 동일합니다.
- 독립성 (Independence): 오차항들은 서로 독립적입니다 (자기상관 없음).
- 다중공선성 없음 (No Multicollinearity): 독립 변수들 사이에 완벽한 선형 관계가 없어야 합니다.
이러한 가정은 잔차 분석(Residual Analysis)을 통해 진단할 수 있습니다.
회귀 모델의 평가 지표
회귀 모델의 성능을 평가하기 위해 다음과 같은 지표들이 사용됩니다:
| 지표 |
설명 |
| R² (결정계수) |
모델이 종속 변수의 변동을 설명하는 정도. 0~1 사이. 높을수록 좋음. |
| 수정된 R² (Adjusted R²) |
변수 개수를 고려한 R²의 보정값. 과적합 방지에 유용. |
| RMSE (Root Mean Square Error) |
예측값과 실제값의 차이의 제곱 평균의 제곱근. 작을수록 정확함. |
| MAE (Mean Absolute Error) |
오차의 절댓값 평균. 이상치에 덜 민감함. |
활용 사례
- 경제학: 소비 지출과 소득의 관계 분석
- 의학: 흡연 여부와 폐암 발생 위험도 분석
- 마케팅: 광고비 투자 대비 매출 예측
- 환경 과학: 온실가스 농도와 기온 상승의 관계 모델링
참고 자료 및 관련 문서
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
- 관련 문서: 상관분석, 최소제곱법, 다중공선성
회귀 분석은 데이터 과학의 기초이자 핵심 기술로, 현대 통계 분석의 기반이 되는 도구입니다. 적절한 모델 선택과 가정 검토를 통해 신뢰할 수 있는 통계적 인사이트를 도출할 수 있습니다.
# 회귀 분석
회귀 분석(Regression Analysis)은 통계학에서 두 개 이상의 변수 간의 관계를 모델링하고 분석하는 대표적인 기법 중 하나입니다. 특히 한 변수(종속 변수)가 다른 변수들(독립 변수 또는 설명 변수)에 의해 어떻게 영향을 받는지를 수학적으로 표현함으로써 예측 및 추론을 가능하게 합니다. 회귀 분석은 경제학, 사회과학, 의학, 공학, 머신러닝 등 다양한 분야에서 널리 활용되며, 데이터 기반 의사결정의 핵심 도구로 자리 잡고 있습니다.
이 문서에서는 회귀 분석의 기본 개념, 주요 종류, 가정 조건, 활용 사례, 그리고 해석 방법에 대해 체계적으로 설명합니다.
---
## 개요
회귀 분석의 목적은 종속 변수 $ Y $와 하나 이상의 독립 변수 $ X_1, X_2, \dots, X_p $ 사이의 관계를 **함수 형태**로 모델링하는 것입니다. 일반적으로 이 관계는 다음과 같은 형태로 표현됩니다:
$$
Y = f(X_1, X_2, \dots, X_p) + \varepsilon
$$
여기서 $ \varepsilon $는 오차항(error term)으로, 모델이 설명하지 못하는 잡음 또는 무작위 변동을 나타냅니다.
가장 흔한 형태는 **선형 회귀**(Linear Regression)로, 변수 간의 관계가 직선적이라고 가정합니다. 그러나 현실의 복잡한 관계를 설명하기 위해 비선형 회귀, 로지스틱 회귀 등 다양한 변형이 존재합니다.
---
## 주요 종류의 회귀 분석
### 1. 단순 선형 회귀 (Simple Linear Regression)
한 개의 독립 변수와 한 개의 종속 변수 사이의 선형 관계를 모델링합니다. 모델 형태는 다음과 같습니다:
$$
Y = \beta_0 + \beta_1 X + \varepsilon
$$
- $ \beta_0 $: 절편 (intercept)
- $ \beta_1 $: 기울기 (slope), X가 1단위 증가할 때 Y의 변화량
- $ \varepsilon $: 오차항
예: 학생의 공부 시간(X)과 시험 점수(Y) 간의 관계 분석
### 2. 다중 선형 회귀 (Multiple Linear Regression)
두 개 이상의 독립 변수를 사용하여 종속 변수를 설명합니다.
$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + \varepsilon
$$
예: 집값(Y)을 설명하기 위해 방의 수, 위치, 연식 등의 변수를 동시에 고려
### 3. 로지스틱 회귀 (Logistic Regression)
종속 변수가 범주형(특히 이진 변수, 예: 0 또는 1)일 때 사용됩니다. 출력은 확률 값으로, **시그모이드 함수**(Sigmoid function)를 통해 0과 1 사이로 제한됩니다.
$$
P(Y=1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p)}}
$$
예: 환자의 건강 상태를 기반으로 질병 발생 여부 예측
### 4. 다항 로지스틱 회귀 (Multinomial Logistic Regression)
종속 변수가 세 개 이상의 범주를 가질 때 사용 (예: 자동차 브랜드 선택: A, B, C)
### 5. 비선형 회귀 (Nonlinear Regression)
변수 간의 관계가 비선형인 경우 사용. 지수함수, 로그함수 등 다양한 함수 형태 가능.
예: 박테리아 성장 모델: $ Y = ae^{bt} $
---
## 회귀 분석의 가정 조건
선형 회귀 분석은 다음과 같은 **고전적 가정**(Classical Assumptions)을 따릅니다. 이 가정들이 만족되지 않으면 추정 결과가 편향되거나 신뢰할 수 없게 됩니다.
1. **선형성 (Linearity)**: 독립 변수와 종속 변수 간의 관계는 선형입니다.
2. **오차항의 정규성 (Normality of Errors)**: 오차항은 정규분포를 따릅니다.
3. **등분산성 (Homoscedasticity)**: 오차의 분산이 모든 독립 변수 값에서 동일합니다.
4. **독립성 (Independence)**: 오차항들은 서로 독립적입니다 (자기상관 없음).
5. **다중공선성 없음 (No Multicollinearity)**: 독립 변수들 사이에 완벽한 선형 관계가 없어야 합니다.
이러한 가정은 잔차 분석(Residual Analysis)을 통해 진단할 수 있습니다.
---
## 회귀 모델의 평가 지표
회귀 모델의 성능을 평가하기 위해 다음과 같은 지표들이 사용됩니다:
| 지표 | 설명 |
|------|------|
| **R² (결정계수)** | 모델이 종속 변수의 변동을 설명하는 정도. 0~1 사이. 높을수록 좋음. |
| **수정된 R² (Adjusted R²)** | 변수 개수를 고려한 R²의 보정값. 과적합 방지에 유용. |
| **RMSE (Root Mean Square Error)** | 예측값과 실제값의 차이의 제곱 평균의 제곱근. 작을수록 정확함. |
| **MAE (Mean Absolute Error)** | 오차의 절댓값 평균. 이상치에 덜 민감함. |
---
## 활용 사례
- **경제학**: 소비 지출과 소득의 관계 분석
- **의학**: 흡연 여부와 폐암 발생 위험도 분석
- **마케팅**: 광고비 투자 대비 매출 예측
- **환경 과학**: 온실가스 농도와 기온 상승의 관계 모델링
---
## 참고 자료 및 관련 문서
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). *Introduction to Linear Regression Analysis*. Wiley.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). *An Introduction to Statistical Learning*. Springer.
- 관련 문서: [상관분석](https://ko.wikipedia.org/wiki/상관분석), [최소제곱법](https://ko.wikipedia.org/wiki/최소제곱법), [다중공선성](https://ko.wikipedia.org/wiki/다중공선성)
---
회귀 분석은 데이터 과학의 기초이자 핵심 기술로, 현대 통계 분석의 기반이 되는 도구입니다. 적절한 모델 선택과 가정 검토를 통해 신뢰할 수 있는 통계적 인사이트를 도출할 수 있습니다.